译事 | 蔡基刚:AI时代,高校翻译专业会消亡吗?
在2019世界人工智能大会上,马云在“机器与人谁更聪明”的对话中称,“人类不可能创造一个比自己更聪明的机器”,而另一方马斯克则认为,“人工智能可能比最聪明的人还要聪明”。
这两种观点恰恰代表了我国高校对机器翻译的两种不同观点。其中,机器不可能替代人工翻译的观点占主流,尤其在翻译界。比如,北京外国语大学高级翻译学院教授李长栓在不久前发表的《机器可以取代人工翻译吗?》一文中明确表示,“要想通过机器翻译,实现自然语言的处理,恐怕还有很长的路要走;也许永远没有实现的一天”。
但是能不能替代不是嘴上论战,而是要拿出论据或证据。反对者的最大论据是机器人无法识别或无法断定某个词或某个句子的确切含义。如李长栓文章例举mission一词,认为它有“使命”和“使团”两个意思;defendants一词在刑事文本中是“被告人”的意思。但在民事语境下是“被告或原告”的意思。李长栓认为,“这些微小差别,更是不能指望机器分辨出来”。
李长栓的担心实际上是词和句子在特定语境下的意义不能确定,但机器翻译恰恰在这方面有更好的判断力。
机器翻译发展到今天已到了第三代即神经机器翻译(NMT:Neural Machine Translation),其根本原理就是根据语境化原则建立海量的分门归类的语料库来处理。机器翻译从来不是去语境的,用一款机器人翻译任何文本是一种公众的误解。
机器翻译必须是专门性的,比如法律机器翻译、医学机器翻译、生物机器翻译、石油机器翻译、航天机器翻译、海事机器翻译等等,而且每个机器翻译下面还有子机器翻译。以法律机器翻译为例,下面可能还有法律合同、法庭判决书、法律诉讼书分类;在法律诉讼书下,再细分民事诉讼书、刑事诉讼书或军事诉讼书等。机器翻译分得越专,准确率越高,某个词如defendants是“被告人”还是“被告或原告”,在特定机器里是非常容易翻译的。
机器翻译有一个巨大的语料库,即专门机器把这类文本(如民事诉讼书)尽可能多地收集起来建库。语料库有双语翻译对等语料库(即输入以往所有已完成的互译文本,如英汉翻译对等文本)和双语平行对等语料库(即没有经过翻译,但是同一主题、同一体裁的两种不同语言文本)。一个专门机器翻译往往需要上百万乃至千万的翻译对等和双语平行对等的句子,这就需要语料库训练对齐。
机器翻译有一套可操作的、给原语语料加工对齐的语言标准,标准可分词汇和句子结构两大部分。
词汇部分是这个学科或行业统一的词汇或词表,其中包括术语、专门词汇和普通词汇。比如,目前机器翻译对于生僻词(rare words)和外来词(loan words)处理是一大难题。由于在汉语科技文章中大量是音译或意译的术语和技术名词,不统一造成误译较多,比如雷达(radar)、克隆 (clone)、基因(gene)、拷贝(copy)、镭射(laser)等。即使海峡两岸暨港澳地区意译也不统一,比如software(软件/软体)、missile(导弹/飞弹)、information(信息/资讯)、waveguide(波导/导波)等。
因此,标准是规定对于外来词统一使用原词,如不是用“转基因食品”,而是改回genetically modified foods 或GMOs。还有一些汉语比喻词或四字成语,规定避免使用,如“耳闻目睹” 可以改成 “听到的和看到的”,“胸有成竹”要求改为无比喻的文字。
句法部分是规定使用统一的语法和句法结构,如“这次事故幸亏实验人员做了充分的应急准备”这类主题句,改为机器可以识别和翻译的SVO主谓句“幸亏实验人员做了充分的应急准备,才避免了这次事故的发生”;汉语流水句(即缺乏显性连词的一组小句)要加工处理,如“这种设备操作简单,价格低廉,需求量这几年一直很大,使用者遍及国内外”,改为“由于这种设备操作简单,价格低廉,因此需求量这几年一直很大,使用者遍及国内外”。
有了统一标准,我们就可以对原语语料进行加工,让机器学习和训练:人工按标准对原语料处理和规范,然后输入机器翻译,之后对机器翻译译文进行与原文的比较和校对,修改后输回机器,再让其进行学习翻译,数次来回反复后,语料库文本不断完善。也就是说,随着机器翻译实践的不断增加,这款专业翻译机器的准确率达到95%乃至100%也并非不可能。翻译内容越专业、场景或任务越固定、标准越统一,翻译准确率就越高。
一款专门机器翻译就这样开发出来了。当然,在使用中首先要求专业共同体作者用开发标准(即统一的词汇和规定的句法)来撰写法律合同、车辆操作说明书或化学实验报告等。对暂时不按标准写作的,在机器处理前首先安排人工按标准对原语加工处理(这种处理还是比人工翻译快得多)。
不过,这里所说的是汉语翻译英语,因为这是难点和关键。英语翻译汉语,即使只有80%的准确率,科技、工程、外贸人员也能根据自己的专业知识弥补。
机器翻译与机器人阿尔法狗(Alpha Go)的原理基本一样,阿尔法狗机器人不仅被输入3000万围棋高手们的棋谱,而且能够在与真人高手对局中自我学习和训练,不断提高自身棋力,因此能接连打败世界围棋第一人就毫不奇怪了。几年前,不少人认为机器人阿尔法狗永远不可能战胜人类棋手,但是短短两三年后,这个说法不就变成笑话了吗?
这个道理翻译界人士也懂,但是他们为什么对机器翻译这么悲观?主要是机器人威胁到翻译专业的生存。当大量细分领域的专门机器开发出来了,当机器翻译的质量(更不用说数量和速度)平均高于翻译专业的本科生和研究生,社会企业还需要这些毕业生吗?技术的发展对社会习惯、高校专业结构的冲击最大。在人工智能时代,没有一个高校专业可以独善其身。
在笔者看来,随着机器翻译时代的到来,高校翻译专业必然走向消亡,除了保留少数翻译研究所或文学翻译研究所外,翻译专业应该改为语言服务专业。这不是名称的改变而是功能的变化。语言服务系的学生除掌握一些基本翻译技能外,主要学习机器翻译算法,学习特定领域的最基本专业知识,尤其是专业表达,包括特定专业的知识和内容是如何用英语和汉语构建与传播词汇使用特点、句法结构的。为机器翻译服务,这是一个很大的新兴产业。
笔者相信,技术文本和政治文献的机器翻译替代人工翻译在未来几年就可能实现。人机耦合到单独翻译是时间问题,机器翻译译文总体质量超过职业译者也是必然的。文学翻译同样如此,如网络文学的机器翻译已成产业。当然,名著翻译要严谨些。
高校翻译界必须为这个时代的到来做好准备,尤其是翻译专业要为自己的消亡、开创新兴的语言服务专业做好准备,进行勇敢的探索。
*作者系复旦大学教授,来源:《中国科学报》(2019-09-04 第4版 观点)
注意啦,好消息!在公众号对话框回复“号内搜”,获取链接,可以快捷搜索“译·世界”号内任意信息~
推荐阅读